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摘要 : [目的 /意义 ] 开展 新 兴 主 题 识别 研究 ， 科 学 有 效 地 发 据 其 特征 关联 规律 ， 可 以 更 好 地 
服务 于 现实 需求 ， 发 挥 科 技 情 报 研究 对 学 科 发 展 的 创新 支撑 作用 。[ 方法/ 过程] 从 新 兴 主 题 
特征 定义 出 发 ， 结 合 新 兴 主 题 研究 与 科学 影响 评价 的 相关 理论 与 实践 ， 利 用 自然 语言 处 理 、 全 
局 主 成 分 分 析 和 时 间 序 列 分 析 方 法 建立 新 兴 主 题 识别 的 方法 框架 ,量化 主题 的 一 致 性 、 新 颖 性 、 
影响 力 和 增长 性 等 特征 ， 结 合 趋 势 预 测 完成 对 新 兴 主 题 的 提取 、 分 析 和 识别 。 在 新 兴 主 题 识别 
的 基础 上 ， 深 度 挖掘 目标 领域 新 兴 主 题 发 展 的 规律 ， 利 用 格 兰 杰 因果 检验 和 协 整 分 析 ， 对 其 特 
征 关联 效应 进行 长 期 均衡 检验 和 因果 关系 推断 ， 分 析 影 响 新 兴 主 题 发 展 的 长 期 关联 因素 及 其 作 
用 关系 。 [结果 /结论 ] 提出 一 套 新 兴 主 题 识 别 及 其 关联 特征 分 析 的 方法 。 为 证 实 该 方法 的 可 
行 性 和 有 效 性 ， 选 取 湿 地 领域 开展 实证 研究 ， 结 合 主题 识别 与 特征 关联 效应 分 析 ， 刻 画 该 领域 
主题 科学 影响 的 动态 发 展 路 径 ， 从 关联 特征 视角 出 发 提出 新 兴 主 题 的 建设 思考 。 

关键 词 : 趋势 预测 ”新兴 主题 识别 ”特征 关联 效应 ” 协 整 分 析 面板 数据 分 析 
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科学 有 效 地 从 中 发 掘 新 兴 研 究 主题 ， 是 科研 管 
理 者 和 科研 人 员 研 究 方向 布局 和 调整 的 重要 参 
考 依据 …。 同 时 ,学 科 主 题 发 展 具 有 "惯性 " 与“ 相 
关 性 / 延续 性 ”， 即 学 科 主 题 时 间 序 列 变 化 发 展 
具有 延续 性 并 且 是 相互 联系 的 ， 一 定时 期 内 存 
在 可 预测 的 发 展 变化 规律 。 新 兴 主 题 的 识别 和 


Ola 

随 着 科学 研究 第 四 范式 的 兴起 ， 数 据 驱动 
下 的 科学 研究 正 从 知识 层 下 沉 到 数据 层 ， 制 定 
科技 发 展 计划 和 相关 政策 需要 紧 随 科研 动态 。 
文献 作为 知识 流动 的 重要 载体 ， 是 识别 学 科 主 
题 的 重要 数据 来 源 。 面 对 海量 文本 数据 ， 如 何 
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<= 
趋势 预测 ， 有 助 于 科研 工作 者 了 解 研 究 动态 ， 
有 利于 基金 资助 组 织 和 决策 者 优化 创新 资源 分 
配 , 进一步 促进 有 发 展 潜力 的 研究 方向 的 发 展 。 

与 新 兴 主 题 相似 的 概念 较 多 ， 诸 如 热点 主 
题 、 前 治 主题 和 颠 履 式 主 题 等 ， 并 由 此 演化 出 
一 般 创 新 主题 、 新 兴 前 治 主题 和 科学 前 沿 等 概 
念 ， 在 研究 和 应 用 中 容易 出 现 概念 边界 的 模糊 
不 清 站。H. Xu 等 计量 “新 兴 主 题 ” 相 关 概念 族 
群 的 研究 热度 和 发 展 趋势 ， 指 出 族群 概念 间 存 在 
差异 和 交 义 ， 相 比 于 前 沿 主 题 和 颠覆 式 主 题 等 ， 
学 者 们 对 于 新 兴 主 题 的 研究 兴趣 增长 更 快 中 。 新 
兴 主 题 相关 概念 的 差别 主要 体现 在 时 间 维 度 和 
创新 维度 ， 热 点 主题 、 新 兴 主 题 和 前 沿 主题 在 
时 间 指 向 上 ， 分别 表征 过 去 、 现 在 和 未 来 的 重 
要 研究 主题 , 其 创新 程度 随时 间 发 展 逐 渐 增 强 ， 
预测 难度 也 逐渐 增 大 中。 

在 新 兴 主 题 的 识别 方法 上 ， 学 者 们 主要 利 
用 共 词 分 析 外 、 引 文 分 析 和 文本 挖掘 分 析 
等 相关 技术 方法 ， 从 科学 文献 中 提取 和 识别 新 
兴 主 题 。 近 几 年 ， 针 对 新 兴 主 题 特征 的 讨论 越 
来 越 多 ， 大 多 数学 者 聚焦 于 文献 的 外 部 历史 性 
ARIE, ， 如 文本 主题 的 历史 演化 和 引用 情况 等 ， 
而 对 于 未 来 发 展 趋势 的 考虑 较 少 钻 。 王 山中 认 
为 ， 新 兴 主 题 代表 着 研究 领域 的 未 来 趋势 ， 对 
其 趋势 的 分 析 解 读 尤 为 重要 。 随 着 相关 研究 热 
度 持 续 增 长 ,识别 方法 也 日 益 多 元 化 和 科学 化 ， 
但 是 在 新 兴 人 研究 主题 的 明确 概念 定义 与 拟定 的 
可 操作 性 指标 之 间 仍 然 缺 乏 良 好 的 联系 中 。 因 
此 ， 如 何 挖掘 新 兴 主 题 与 特征 之 间 的 关联 关系 ， 
采取 有 效 的 特征 方案 ， 通 过 构建 科学 严谨 的 预 
测 模型 和 使 用 合适 的 分 析 方 法 进而 提取 长 期 关 
联 变量 ， 可 以 为 新 兴 主 题 识 别提 供 一 些 参考 。 
笔者 从 新 兴 主 题 的 全 面 特征 出 发 ， 利 用 自然 语 
言 处 理 和 时 间 序 列 趋势 模型 方法 ， 综 合 分 析 文 
本 和 特征 数据 ， 进 行 新 兴 主 题 识别 及 特征 关联 
分 析 。 


人 @ 相 关 研 究 与 主要 进展 
新 兴 主 题 识别 可 以 及 时 跟踪 科学 发 展 动态 ， 
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尽早 捕捉 相关 领域 未 来 的 发 展 契 机 和 可 能 的 变 
化 趋势 "梳理 新 兴 主 题 概念 和 识别 方法 研究 ， 
相关 进展 大 致 可 分 为 3 类 : 面向 新 兴 主 题 定义 
及 其 特征 的 研究 讨论 、 面 向 新 兴 主 题 识别 方法 
的 融合 创新 和 面向 主题 趋势 分 析 的 综合 运用 。 
2.1 新 兴 主 题 概念 及 特征 

1965 Æ, D. J. De Solla Price! 开创 性 地 定 
义 了 研究 前 治 ， 认 为 这 是 一 种 处 于 正在 成 长 阶 
段 的 新 颖 性 研究 。 新 兴 主 题 起 源 于 对 人 研究 前 沿 
的 关注 趾 ， 在 新 兴 主 题 完整 概念 提出 前 ， 主 题 
特征 识别 处 在 萌芽 阶段 ， 主 要 表现 为 采用 多 指 
标 计 量 进行 特征 识别 ， 如 R. L. Ohniwa 等 趾 认 
为 主题 词 增长 性 和 丰富 性 是 表征 新 兴 主 题 的 重 
要 信息 ; YN. Tu 等 中 认为 新 颖 性 和 研究 热度 
是 新 兴 主 题 最 显著 的 特征 。 

2015 年 ，D. Rotolo 等 对 新 兴 技 术 主 题 
提出 了 全 面 的 特征 定义 ， 考 虑 到 技术 和 科学 的 
差异 性 ，Q. Wang”? 对 新 兴 主 题 进行 了 定义 ， 即 
新 兴 主 题 是 具有 新 颖 性 和 一 定 连贯 性 、 能 产生 
较 大 科学 影响 力 且 发 展 速度 相对 较 快 的 主题 ， 
其 4 个 主要 的 特征 分 别 为 : 新 颖 性 、 增 长 性 、 
一 致 连贯 性 和 科学 影响 力 。 伴 随 完整 概念 的 提 
出 ， 新 兴 主 题 特征 分 析 迈 入 新 阶段 。H. Xu HP 
提出 针对 新 兴 主 题 的 多 维 科 学 计量 指标 评价 方 
案 ， 其 中 ， 新 颖 性 和 增长 被 认为 是 新 兴 主 题 的 
最 重要 指标 ， 这 两 个 指标 被 视 为 阔 值 指标 ， 在 
确保 新 颖 性 和 增长 的 前 提 下 ， 考 虑 了 对 社会 和 
经 济 以 及 对 社区 网 络 结构 的 显著 影响 的 潜力 。 
新 兴 主 题 的 研究 价值 来 源 于 其 未 来 的 增长 潜力 
或 科学 影响 潜力 外 。S. Xu 等 关注 新 兴 主 题 的 未 
来 趋势 ， 通 过 分 析 主 题 特征 走势 并 预见 新 兴 的 
研究 主题 站。 新 兴 主 题 特征 定义 被 提出 后 ， 新 
兴 主 题 研究 取得 了 新 的 进展 ， 一 方面 有 关 学 者 
不 断 探索 新 的 定义 以 及 新 的 识别 方法 ， 另 一 方 
面 一 些 学 者 致力 于 开发 一 系列 的 识别 指标 P 
2.2 新 兴 主 题 识别 方法 

经 过 不 断 发 展 和 创新 ， 新 兴 主 题 识别 方法 
经 历 由 单一 方法 到 机 器 学 习 、 文 本 挖掘 等 多 元 
化 方法 的 融合 。H. Small"! 首次 提出 利用 共 引 识 
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别 新 兴 主 题 ，C. Chen" 将 引文 与 词法 分 析 结合 ， 
联合 引文 分 析 和 爆破 检测 识别 新 兴 主 题 。 文 本 
挖掘 可 以 细 粒 度 地 挖掘 大 规模 语料库 中 的 文本 
关系 特征 "| M. Blei 等 先后 提出 的 主题 模型 
和 动态 影响 模型 PO) 等 ， 可 根据 概率 突 发 和 关联 
规则 识别 领域 新 兴 主 题 1， 获得 了 较为 广泛 的 
使 用 。 

近年 来 , 学 者 们 在 文本 挖掘 方法 的 基础 上 ， 
探索 基于 新 兴 主 题 特征 的 多 维特 征 的 识别 方法 。 
李 静 等 根据 内 外 部 文本 特征 构建 新 兴 主 题 综 合 
RIAR; 白 敬 毅 等 王将 主题 新 颖 性 、 增 长 
性 、 影 响 力 等 特征 指标 依次 赋 权 三 加 ， 利 用 多 
维 斥 度 绘制 主题 分 布 矩 阵 识别 新 兴 主 题 ; S. Xu 
等 中 利用 动态 影响 模型 提取 主题 结构 及 增长 性 
和 影响 力 等 指标 ， 使 用 多 任务 最 小 二 乘 支持 向 
量 机 区 分 不 同 主题 的 特征 表现 等 。 如 能 融合 多 
维特 征 构建 综合 识别 方案 ,将 有 助 于 更 好 地 实 
现 新 兴 主 题 识别 。 
2.3 主题 趋势 预测 

在 新 兴 主 题 识别 的 研究 中 ， 越 来 越 多 的 学 
者 关注 到 主题 的 趋势 特征 。A. Kontostathis 等 上 
观测 词 频 趋势 判定 新 兴 主 题 ， C. Lee 等 外 使 
用 多 层 神 经 网 络 来 捕获 一 定时 段 内 关联 指标 间 
的 非 线 性 关系 ， 开 发 了 两 个 衡量 主题 趋势 的 定 
量 指标 。 针 对 主题 时 间 序 列 数据 ， 岳 丽 欣 等 利 
用 ARIMA ( Autoregressive Integrated Moving 
Average model ) 模型 分 别 预 测 了 热点 主题 "和 
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主要 研究 主题 ” 的 未 来 趋势 ; XI AE PY 运 
用 ARDL 模型 度量 主题 趋 执 和 扩散 滞后 效应 ， 
可 见 , 时 间 序 列 分 析 方法 已 经 取得 了 一 些 应 用 。 

目前 新 兴 主 题 概 念 及 特征 已 经 较为 清晰 ， 
虽然 不 少 学 者 考虑 到 趋势 因素 ， 但 主要 为 了 对 
研究 现状 进行 分 析 解 读 ， 而 对 未 来 趋势 变化 的 
预测 稍 显 不 是 。 在 新 兴 主 题 识别 中 ， 普遍 采用 
综合 识别 公式 等 方法 ,一 定 程度 上 压缩 了 主题 
特征 ， 对 主题 特征 的 动态 变化 过 程 有 待 进一步 
研究 。 笔 者 在 Q. Wang 等 ' 提出 的 新 兴 主 题 基 
本 定义 的 基础 上 上 ， 加 入 时 间 序 列 分 析 对 主题 趋 
势 进行 预测 ， 作 为 潜在 高 成 长 性 特征 ， 结 合 全 
局 主 成 分 分 析 ， 从 全 领域 视角 分 析 各 个 主题 的 
特征 水 平 ， 系统 地 构建 影响 力 和 增长 性 的 综合 
评价 指标 体系 ,结合 时 间 序 列 方法 进一步 分 析 
主题 成 分 的 动态 特征 ， 以 对 相关 领域 主题 的 特 
征 表现 情况 及 其 深层 次 的 关系 进行 剖析 。 


合 新 兴 主 题 识别 方法 框架 


笔者 提出 的 新 兴 主 题 识别 与 分 析 框 架 主 要 
分 为 4 个 部 分 ( 见 图 1 ) 。 针 对 文本 数据 ， 利 用 
LDA 主题 识别 生成 主题 时 间 序 列 ， 结 合 ARIMA 
模型 和 全 局 主 成 分 量化 主题 特征 ， 构 建新 兴 主 
题 识别 方案 。 在 新 兴 主 题 识别 的 基础 上 ， 综 合 
采用 面板 协 整 分 析 和 格 兰 杰 因 果 推 新 ， 挖 掘 观 
测 变量 间 的 长 期 关系 和 关联 效应 ， 分 析 新 兴 主 
题 及 其 特征 的 长 期 关联 关系 。 


~ 


~、 2 


py 


1 研究 技术 路 线 


3.1 主题 识别 和 数据 提取 
笔者 主要 使 用 python 语言 进行 摘要 文本 数 


据 分 词 、 清 洗 和 词 形 还 原 ， 在 与 作者 关键 词 、 
文章 关键 词 合 并 去 重 后 ， 通 过 LDA 主题 模型 获 
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<= 
取 主 题 概 率 分 布 。 选 择 主题 数量 为 1-175 个 的 模 
型 ， 经 一 致 性 比较 和 人 工 核验 ， 确 定 最 优 主 题 
数量 。 根 据 主题 模型 导出 分 布 结果 ， 计 算 主 题 
各 维度 数据 。 
3.2 基于 多 维 指标 的 新 兴 主 题 识 别 体系 构建 

目标 领域 主题 的 发 展 存在 多 种 多 样 的 外 在 
体现 ， 笔 者 从 新 兴 主 题 定义 出 发 ， 确 定 了 基于 


新 兴 主 题 
识别 指标 


| > 主题 引用 数据 
> 主题 机 构 数 据 
> 主题 作者 数据 
> 主题 强度 数据 


主题 新 颖 性 指数 
ARIMA 趋 势 预测 | —— 


一 到 连 贡 性 指数 |—— aae | | e 
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新 兴 主 题 特征 的 量化 指标 识别 体系 ， 即 在 一 致 
连贯 性 和 新 颖 性 指数 基础 上 ， 采 用 ARIMA 模 
型 对 主题 未 来 成 长 潜力 的 预测 结果 ， 联 合影 响 
力 和 增长 性 特征 时 序 立 体 表 进行 创新 的 全 局 主 
成 分 分 析 ， 刻画 主 题 发 展 的 动态 特征 与 综合 表 
Dh, 综合 各 维度 特征 完成 新 兴 主 题 的 识别 ， 如 
图 2 ras: 


2 新 兴 主 题 多 维特 征 识别 体系 


3.2.1 未 来 高 成 长 性 

未 来 高 成 长 性 是 指 主题 在 未 来 具有 良好 的 
发 展 潜力 。 本 文 主要 采用 ARIMA 模型 ， 从 主 
题 强 度数 据 出 发 预测 其 未 来 趋势 。ARIMA(p， 
d, q) 模型 包括 AR 过 程 、MA 过 程 和 差分 整合 
过 程 ， 内 含 3 个 主要 参数 分 别 为 : p 为 自 回归 项 
数 ，d 为 平稳 差分 阶 数 ，q 为 滑动 平均 项 数 e, 
ARIMA 模型 可 以 表示 为 : 
(204 -LX =(14 Daze, 公式 (1) 

在 公式 (1 ) 中 , 工 是 滞后 算 子 ，d E 整 数 ， 
d>0。 
3.2.2 新 疾 性 

新 疾 性 的 度量 是 新 疾 主 题 识别 的 关键 部 分 。 
Y. N. Tu 等 中 利用 发 文 时 间 测 算 新 颖 性 指数 。 
HAGAE OF) 增加 主题 生命 周期 理论 ， 定 义 新 颖 
性 ， 如 公式 (2 ) 所 示 : 

NIF1/(t-FY+1) AERON 

其 中 ，! 为 主题 生命 周期 ，FY 为 主题 初次 

出 现年 份 。 考 虑 到 湿地 领域 存在 长 生命 周期 主 


ry 
232 


题 ， 为 保证 区 分 度 采用 主题 平均 年 龄 ， 计 算 公 
式 为 : 
NIF1/(t-AY+1) 公式 (3) 

在 公式 (3 ) 中 ，AY 为 加 权 主 题 平均 年 份 ， 
ASS PLY 
3.2.3 一 致 连贯 性 

一 致 连贯 性 是 指 主题 已 经 出 现 一段 时 间 ， 
且 拥 有 持续 稳定 发 展 的 趋势 。Q. Wang 等 "将 
主题 连贯 性 定义 为 主题 链接 的 松散 程度 ， 通 过 
领域 内 引文 数 与 发 文 数量 之 比 ( 一致 性 指数 ) 
来 测量 ， 并 将 闷 值 取 为 1。S. Ku” 认为 连贯 性 
取决 于 主题 提取 方法 是 否 可 以 确保 提取 的 主题 
足够 连贯 . 白 如 江 等 后 认为 ,可 以 通过 时 间 切 片 ， 
在 连续 时 间 区 间 达 到 设 定 标准 的 主题 ， 即 为 满 
足 连 贯 性 要 求 。 本 文 综 合 采用 相 邻 时 间 划 片 以 
及 一 致 性 指数 计算 方法 , 度量 一 致 连贯 性 特征 。 
3.2.4 科学 影响 力 及 增长 性 

科学 影响 力 评估 范式 包括 数量 、 质 量 和 效 
果 论 ， 涉 及 研究 成 果 产 生 条 件 、 呈 现 载体 和 传 
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播 3 个 维度 ， 以 及 研究 强度 、 研 究 绩效 、 研 究 
文 撑 能 力 、 人 研究 机 构 多 样 化 程度 和 研究 成 果 的 
传播 能 力 等 指标 。 对 于 新 兴 主 题 科学 影响 力 
的 分 析 存 在 单一 和 多 种 指标 的 情况 ， 如 Q. Wang 
等 中 利用 主题 被 引 次 数 计算 科学 影响 力 ; G. 
Gonzalez-Alcaide 等 趾 分 析 研 究 主题 领域 文献 
发 布 情况 、 合 作者 特征 ( 作者、 机 构 和 国家 ) 
和 施 引文 献 等 影响 传播 特征 ， 评 佑 人 研究 成 果 在 
研究 领域 的 影响 。 本 研究 立足 于 科学 影响 典型 
评价 范式 ， 选 择 引文 数量 、 作 者 数量 、 机 构 规 
模 以 及 学 科 丰 富 性 等 作为 科学 影响 力 的 综合 观 
测 指标 。 

主题 增长 是 一 个 增 量 的 概念 ， 可 以 从 多 个 
角度 来 衡量 ， 如 Q. Wang 等 "采用 发 文 数量 增 
K, H. Guo 等 中 分 析 突 发 关键 词 、 作 者 数量 以 
及 跨 学 科 性 等 特征 变化 。 结 合 相 关 人 研究 内 容 ， 
兼顾 指标 的 实用 性 和 可 获得 情况 ， 笔 者 围绕 主 
题 影响 力 和 增长 性 两 方面 的 内 涵 ， 主 要 选择 能 
够 体现 主题 使 用 热度 、 研 究 参 与 热度 、 研 究 关 
注 热 度 和 研究 增长 情况 方面 的 指标 ， 在 通过 全 
局 主 成 分 分 析 的 适宜 性 检验 后 ， 最 终 选 取 主 题 
强度 、 主 题 引 用 、 主 题 作 者 、 主 题 机 构 和 和 学科 
数量 5 项 主题 影响 力 评价 指标 ， 以 及 主题 增长 
评价 的 5 个 增 量 指标 ， 包 括 主题 强度 增长 率 ， 
主题 文献 引用 增长 率 、 作 者 增长 率 、 机 构 增 长 
率 和 学 科 增 长 率 ， 通 过 时 序 全 局 主 成 分 分 析 得 
到 评价 综合 影响 力 和 综合 增长 性 的 两 个 主 成 分 。 
针对 主题 特征 的 综合 分 析 涉 及 多 维 面 板 数据 的 
处 理 。 全 局 主 成 分 分 析 在 处 理 此 类 数据 上 可 以 
保留 主题 的 动态 特征 , 更 具 稳 健 性 和 代表 性 中 1。 
具体 指标 计算 方法 如 下 : 

(1) 主题 引用 指标 。 笔 者 认为 ， 主 题 引 用 
指标 ( Topic Citation, TCI) 可 以 反映 主题 所 拥 
有 的 关注 度 和 传播 热度 ， 计 算 公 式 如 下 : 

TCh ALi 公式 (4) 
其 中 ，c 忆 代表 主题 k 在 t 年 的 第 m 个 文档 
上 的 被 引 频 次 ， 按 照 文档 年 份 进行 同一 主题 下 
的 频次 累积 加 总 即 为 主题 引用 指标 。t 代 表 年 份 ， 
m 为 文章 篇 数 ，k 为 主题 个 数 。 
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(2) 主题 作者 数量 指标 。 主 题 作 者 数量 
(Topic Author index ，TAT ) 指标 测量 的 是 某 特 
定年 份 下 ， 参 与 某 个 主题 研究 的 学 者 的 规模 ， 
也 能 在 一 定 程度 上 反映 出 主题 的 热度 。 计 算 公 
式 如 下 : 
TAT,.= 了 Yau 公式 (5) 
其 中 ，au 凡 代表 主题 k 在 t 年 的 第 m 个 文 
档 上 的 所 有 作者 数量 ， 其 增长 一 方面 来 源 于 发 
文 数量 的 增加 ， 男 一 方面 来 源 于 参与 研究 人 员 
数量 的 增加 。 
(3) 主题 学 科 数 量 指标 。 主 题 学 科 数 量 
(Topic Category index，TCG ) 可 以 反映 出 主题 
学 科 跨 度 和 学 科 交 叉 程 度 ， 笔 者 在 增长 性 等 指标 
设计 上 增加 学 科 交 差 性 等 指标 。 计 算 公式 如 下 : 
TCG =D et, 公式 (6) 
Hp, ct ORS k Et EN m 个 科技 
文献 的 学 科 分 类 数量 ， 笔 者 通过 学 科 数 量 频次 
提取 ， 按 照 文档 年 份 累 积 加 总 得 到 主题 学 科 数 
量 指标 。 
(4) 主题 机 构 数量 指标 。 主 题 机 构 数量 
(Topic Institution index，TIS ) 可 以 反映 出 学 术 
机 构 对 该 领域 的 参与 度 ， 这 也 能 反映 出 机 构 的 研 
究 方 向 选择 和 文 持 力度 。 该 指标 越 大 说 明科 研 机 
构 中 在 该 主题 下 的 布局 越 多 。 计 算 公 式 如 下 : 


MI 


TISu=y inst, 公式 (7) 
其 中 ，insto 代表 主题 在 + 年 的 第 mm 个 文 
档 上 的 机 构 禾 盖 数 量 。 


(5) 主题 强度 指标 。 主 题 强 度 (Topic 
Indensity, TI) 反映 科技 文献 数据 的 研究 热度 ， 
由 各 个 文档 的 主题 及 其 权重 分 布 计 算得 到 。B. 
Chen 等 外 研究 发 现 ， 研 究 主 题 k 在 t 时 间 的 主 
题 强度 Tho MAARN: 


(t) 
M? O 


TE, = 之 Pim 公式 (8) 
HP, RRE k 在 t 年 的 第 m 个 文档 
上 的 主题 概率 ， 该 指标 越 大 说 明 研 究 价 值 和 研 
FES SOK. Th, 代表 主题 k 在 t+ 年 的 第 m 个 文 
档 上 的 主题 强度 。 
(6) 增长 性 的 度量 。 增 长 性 体现 在 引文 增 
长 、 作 者 增长 、 机 构 规模 扩大 TI 以 及 不 同学 科 
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的 汇集 等 方面 ， 其 度量 方式 为 相 邻 时 间 数 据 的 
变化 。 通 过 计算 ， 得 到 TLG、TIS-G、TCILG、 
TCG-G 和 TATG， 分 别 表征 相应 特征 的 增长 。 


a) 


st 2) 
Pix Pix 


Pix 


D (T) 
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以 主题 强度 增长 为 例 ， 度 量 公式 为 : 
Growth (kt) = (TI-TI c1) ) 
增长 性 的 计算 方案 如 图 3 所 示 : 


公式 (9) 


TI(k,1) so Ti(kt) oe TI(k,T) 


(ay ‘Gi 人 jo cu] 
Prk Pak Pax => 


May M MD mn 
mat Pak Èri Pax pau Pax 


Powe | = | Pao, | om Ds 4 
Growth(k,2) Growth(k,t) a Growth(k,T) 
TI(,2)-TI(k,1) TI(k,t)-TI(k,t-1) TI(k,T)-TI(k.T-1) 


3 主题 强度 增长 计算 演示 


3.3 主题 特征 关联 分 析 

为 了 深度 挖掘 目标 领域 新 兴 主 题 发 展 的 内 
在 发 展 规律 ， 本 研究 采用 主题 特征 关联 分 析 方 
法 。2003 年 诺 贝 尔 获奖 者 C. W. J. Granger 提出 
基于 “预测 ”的 协 整 分 析 与 格 兰 杰 因果 检验 方 
法 ， 对 变量 间 的 长 期 作用 关系 提出 统计 学 上 的 
检验 ， 判 断 变量 间 的 因果 关联 关系 号 。 对 于 包 
含 截面 个 体 特征 与 时 间 维 度 变 化 特征 的 面板 数 
据 ，C. W. Kao 等 提出 面板 协 整 检验 的 方法 C", 
E. I. Dumitrescu 和 C. Hurlin®” 拓展 了 面板 数据 
格 兰 杰 因果 关系 的 检验 方法 ， 从 而 可 以 更 好 地 
分 析 自 变量 与 被 解释 变量 的 关联 效用 作用 机 制 。 
针对 新 兴 主 题 特征 关联 效应 的 分 析 ， 本 研究 主 
要 采用 上 述 方法 。 


人 @ 新兴 主 题 识 别 实证 分 析 


4.1 数据 来 源 
笔者 利用 “湿地 ”领域 研究 论文 数据 开 


2 500 


展 实证 分 析 ， 在 Web of Science 平台 核心 合集 
的 SCIE 数据 库 (SCI-Expanded ) 和 SSCI 数据 
JÆ (Social Sciences Citation Index ) 中 进行 检 
索 。 梳理 湿地 的 不 同类 型 和 表达 ， 并 利用 相关 
关键 词 设计 检索 策略 ， 将 标题 、 摘 要 、 作 者 关 
键 字 和 关键 字 作为 识别 字段 ， 以 TI=((wetlands 


or wetland or 


“wet land” or “wet lands” or 
marsh or swamp* or peatland* or “peat land*” 
or bog or bogs or mire or mires or fen or fens or 
everglade* or mangrove*)) not TS=( “swamp 
crayfish*” or “marsh sandpiper” or “marsh 
mallow” or “marsh harbour” ) 作为 检索 式 进行 
主题 检索 ， 检 索 年 代 范 围 限 制 在 2000 年 1 月 1 
日 到 2020 年 12 月 31 日 ,检索 时 间 为 2020 年 9 月 ， 
选取 文献 类 型 为 “article” 和 “review” 的 文章 ， 
共计 检索 得 到 湿地 领域 相关 文献 24 449 篇 。 论 
文 年 度 分 布 情况 见 图 4， 态势 发 展 良好 ， 增 量 稳 
步 上 升 。 


年 ) 


献 分 布 〈 篇 


Si 


2038 
1827 
02 
1551 
1444 
1313 1306 1343 
| | | | | 


1 000 is 923 sm 
693 635 147 
523 294 572 
i {i | 由 | 
0 


1611 1641 + 


2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 年 份 


4 湿地 领域 文献 数据 
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4.2 主题 探测 

笔者 利用 python 进行 主题 识别 ， 选 择 主 
题 数 量 为 1-175 个 的 模型 综合 比较 困惑 度 
(perplexity ) 和 一 致 性 的 表现 。 其 中 ， 困 惑 度 
是 利用 概率 计算 某 个 主题 模型 在 测试 集 上 的 表 
现 ， 其 值 越 低 ， 则 说 明 这 个 主题 模型 越 好 。 困 
惑 度 分 析 结果 表明 , 困惑 度 指标 区 分 度 不 显著 。 
C v, U mass, C npmi 和 C uci coherence 均 为 
一 致 性 指标 ， 和 衡量 主 题 内 词语 之 间 是 否 为 相互 
文 撑 关 系 ， 在 一 致 性 指标 结果 中 ， 主 题 数目 为 
26 个 时 最 优 ， 见 图 5。 

通过 分 词 和 主题 模型 等 自然 语言 处 理 后 导 
出 主题 一 关键 词 分 布 ， 得 到 湿地 领域 的 26 MOF 
究 主 题 ( 见 表 1 ) 。 结 合 人 工 判 读 并 翻译 ， 湿 地 
领域 包括 人 工 湿 地 再 生 、 湿 地 生态 监测 、 环 境 
气候 变化 啊 应 、 湿 地 污染 成 分 分 析 、 湿 地 生物 
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多 样 性 保护 、 湿 地 气体 排放 通 量 模型 与 监测 、 
退化 湿地 系统 恢复 、 湿 地 循环 系统 分 析 、 区 域 
湿地 管理 、 湿 地 恢复 标准 技术 和 湿地 生态 防护 


0 20 


40 


30 
主题 个 数 


5 主题 一 致 性 可 视 化 


表 1 湿地 领域 研究 主题 一 关键 词 列表 


主编 号 主题 归纳 英文 关键 词 

Topicl 人 工 湿 地 再 生 removal|wetland|nitrogen|constructedwetlands|performance|system|rightsreserve 
d|phosphorus 

Topic2 湿地 生态 监测 wetland|vegetation|species|water|rightsreserved|diversity|soil|dynamics|site|resto 


Topic3 环境 气候 变化 响应 


Topic4 湿地 污染 成 分 分 析 
Topic5 ”湿地 生物 多 样 性 保护 
Topic6 湿地 气体 排放 通 量 模型 
与 监测 
Topic7 退化 湿地 系统 恢复 
Topic8 湿地 循环 系统 分 析 
Topic9 区 域 湿地 管理 
TopiclO ”湿地 恢复 的 标准 和 技术 
Topicl1 湿地 生态 防护 
Topicl2 ”湿地 微生物 群落 人 研究 


ration 


coastalwetland|climatechange|marsh|sealevelrise|saltmarsh|partinaalterniflora|inu 


ndation|erosion 


pb|heavymetal|zn|cu|cd|contamination|cr|ni{mn|bioaccumulation|surfacesediments 


|fe|ca|bioavailability|hg 


conservation|area|biodiversity|region|{management|china|climate|landscape| 


agriculture|bird 


co2|ch4|vulnerability|sequestration|carbondioxide|n2o0|limited|microbialbiomass|t 


issues|feature 


ecosystemservices|phytoremediation|accounting|wetlandecosystem|metrics|uplan 


djecosystemfunctions 


chemicaloxygendemandcod|adsorption|effluents|tidalwetlands|bod|hydrodynamic 


s|phylogeneticanalysis 


hydraulicretentiontime|surfacewater|compounds|chemicaloxygendemand|archaea| 


sustainabledevelopment|cr 


carbonsequestration|ch4fluxes|moisture|modelresults|river-basin|forestedwetland| 


slr|decompositionrates 


bacterialcommunity|hydraulicretentiontimehrt|hrt{microbialdiversity|aquaticenvir 


onment|industrialwastewater 


biofilm|synthesis|verticalflow|functionalgene|nest|subset|importantecosystems|me 


socosm|protein|strain 
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续 表 | 


genes|waves|strains|dissolvedoxygen|bacterialdiversity|parasites|enzymeactivities 


Topicl3 ”湿地 微生物 基因 研究 


Inacllacid-minedrainage 


Topic14 湿地 生物 种 群 趋势 预测 landsat|timeseries|taxonomy|ammonianitrogen|paranariver|coleoptera|murray- 
E 分 析 darlingbasin|prescribedfire 
: P sipi theastchinaldom|urbanlmammals|wetlandprotection|ammonia-oxidizingbacteri 
Topic15 湿地 生态 补偿 
dae 湿地 生态 补偿 a|wetlandbirds|southernbrazil 
Topic16 湿地 分 类 与 定量 勘查 yellowriverdeltalremotesensingdatalliver|buffalolswampeellsewage-treatmentlline 


研究 arregression|landscapepattern|c/nratio 


Topicl7 湿地 系统 发 生 分 析 


bacterial|velocity|disease|co2fluxes|power|changeclimate|enzymeactivity|contami 
natedwater|phylogeneticanalyses|sr|dem 


NS 


红 树 林 等 湿地 生态 预测 biodiversityconservation|n2oemission|mangrovewetland|ecologicalprocesses|stor 
分 析 msurge|n2ofluxes|trin|metalaccumulation 


Topicl9 湿地 分 类 生态 治理 


\ 


Topic18 


mangroveforest|agriculturalwetland|landcoverchange|temporaldynamic|N20emiss 


ion|coastalwetland|greatlake|scenario|soiltype 
然 和 受 控 湿 地 的 C、N  combinedeffect|deltac13|denitrifier|localscale|differentwetlands|deltan 1 5|foodreso 
循环 模型 的 比较 urce|saltmarsh|sealevelrise|microbialdegradation 
ecologicalrisk|satellitedata|dissimilatorynitratereduction|sourceidentification|coas 


mT 


Topic20 


Topic21 湿地 水 质 遥 感 评 
oer 湿地 水 质 有 fi talzone|tpremoval|Typha x glauca |situ measurement 


滨海 湿地 生态 系统 服务 ”coastalecosystemloccupancy|horizontalsubsurfaceflow|co2|riverdeltalenvironmen 


Topic22 a . . 
Opa 功能 与 管理 talflow|polycyclicaromatichydrocarbonspah 
Topic23 湿地 社区 生态 学 environmentalgradientslrestoredwetlandlinhibition|lecologicalconditionlgreywater| 
phytotoxicity|marshbird|typhadomingensis 
Topic24 EEA aquifers Iborousmedialcooccurrencelbacterialcommunitycomposition|wild| seedlin 
gsurvivallleafareaindexlailmeteorologicaldata 
Topic25 湿地 生物 对 气候 变化 的 ”geographicallyisolatedwetlandslhumanhealth|pcalstable-isotopes|climatewarming| 


反应 species|n-addition|sodium|tree 


Topic26 ”生物 地 球 化 学 循环 


soilorganiccarbon|waterhyacinth|phenotypicplasticity|biogeochemicalcycles|cd|co 
astalenvironment|growinginterest|nosZ-genes 


4.3 新 兴 主 题 识 别 分 析 性 指数 的 横 坐 标 代表 主题 序号 ， 纵 坐标 代表 主 


4.3.1 一 致 连贯 性 分 析 题 一 致 性 指数 计算 结果 。 相 邻 时 间 区 间 内 主题 
为 了 检测 湿地 领域 主题 的 一 致 连贯 性 ， 通 致 性 指数 均 远 高 于 设 定 靖 值 ， 说 明 利用 主题 


过 时 间 划 片 并 计算 2016-2020 年 和 2011-2015 年 模型 确定 的 26 个 研究 主题 连接 紧密 ， 满 足 一 臻 
的 主题 一 致 性 指数 ， 结 果 见 图 6。 主 题 一 致 连贯 连贯 性 要 求 。 


一 致 性 指数 


20 o F 6 9 © © ò ò ® 
oo O © O ọ ò O 9 © OÒ 6 


5 @ ee eeeer®eet®* eeet* eeeeteeteeree e 


o 


0 1 2345 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
主题 
O 2011-2015 一 致 连贯 性 @，2016-2020 一 致 连贯 性 


6 主题 一 致 连贯 性 指 交 
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4.3.2 潜在 高 成 长 力 分 析 


针对 潜在 高 成 长 力 ， 笔 者 通 


过 构建 ARIMA 


模型 来 预测 主题 未 来 趋势 。 为 避免 潜在 的 自 相 关 
和 异 方差 问题 ， 预 先 对 数据 进行 对 数 化 人 处理， 然 
后 进行 平稳 性 检验 。 检 验 类 型 上 ， 分 为 趋势 截 距 
表 2 主体 强度 序列 检验 结 
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(c, t), TÉRARE Cc, 0) 和 无 趋势 无 截 


FE (0,0) 3 


种 类 型 ,根据 显著 性 确定 检验 类 型 ， 


平稳 性 检验 结果 见 表 2。 在 主题 强度 序列 中 ， 进 


行 差分 处 型 


EE 后 ， 主 题 1、5、6、12、21 和 23 Fe 


列 稳定 ， 其 余 均 为 平稳 序列 ， 因 此 可 以 建 模 。 


变量 检验 类 型 ADF 统 计 值 5% 统 计 值 P 值 是 否 平稳 
InTopicl (¢,0,1 ) -5.129 154 -3.710 482 0.004 0 截 距 平 稳 
lnTopic2 (cb0 ) -6.472 344 -3.690 814 0.000 3 平稳 
lnTopic3 (cb0 ) -5.526 228 -3.690 814 0.001 7 平稳 
lnTopic4 (cb0 ) -3.322 204 -3.690 814 0.094 3 平稳 
InTopic5 (cb0 ) -10.157 720 -3.052 169 0.000 0 截 距 平 稳 
InTopic6 (ct,1) -3.564 050 -3.690 814 0.062 4 趋势 截 中 平稳 
InTopic7 (cb0 ) -3.502 356 -3.690 814 0.069 5 平稳 
InTopic8 (cb0 ) -5.097 738 -3.690 814 0.003 8 平稳 
lnTopic9 (ct0) -3.7108 690 -3.690 814 0.048 2 平稳 
InTopic10 (cb0 ) -4.091 747 -3.690 814 0.024 3 平稳 
InTopicl 1 (cb0 ) -5.451 596 -3.690 814 0.002 0 平稳 
InTopic12 (c,0,1 ) -10.268 850 -3.052 169 0.000 0 截 忠平 稳 
InTopic13 (cb0 ) -4.381 036 -3.690 814 0.014 3 平稳 
InTopic14 (cb0 ) -3.714 111 -3.690 814 0.048 0 平稳 
InTopic15 (cb0 ) -4.241 266 -3.690 814 0.018 4 平稳 
InTopic16 (cb0 ) -3.542 071 -3.690 814 0.064 9 平稳 
InTopic17 (cb0 ) -3.448 073 -3.690 814 0.076 3 平稳 
InTopic18 (cb0 ) -4.975 529 -3.690 814 0.004 7 平稳 
InTopic19 (cb0 ) -3.517 281 -3.690 814 0.067 7 平稳 
InTopic20 (cb0 ) -4.485 202 -3.690 814 0.011 8 平稳 
lnTopic21 (¢,0,1 ) -6.922 477 -3.052 169 0.000 0 UPR 
InTopic22 (cb0 ) -3.675 896 -3.690 814 0.051 3 平稳 
lnTopic23 (c0,1) -10.619 530 -3.052 169 0.000 0 截 距 平稳 
InTopic24 (cb0 ) -4.346 055 -3.690 814 0.0152 平稳 
InTopic25 (ct0) -5.129 103 -3.690 814 0.003 6 平稳 
InTopic26 (c,t,0) -11.538 490 -3.052 169 0.000 0 平稳 


经 过 单位 根 检验 ，PCF EI, PACF 图 定 阶 ， 
结合 信息 准则 (BI AIC, SC 和 HQ 最 小 个 数 最 
多 原则 ) 和 参数 比较 ， 确 定 了 ARIMA 模型 形 


式 。 由 于 建 模 期 间 过 程 数据 较 多 ， 下 面 仅 以 表 3 
展示 最 终 模 型 参数 定 阶 结果 , 并 以 主题 5 为 例 ， 
展示 建 模 流 程 。 
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表 3 ARIMA 时 间 序 列 模型 搭建 


主题 ACF 图 PACF 图 模型 主题 ACF] PACFKI 模型 
主题 1 拖 尾 IMRE ARIMA (1,0,0 主题 14 MRE 1 阶 截 尾 ARMA (1,1,0 
主题 STU IMRE ARIMA (1,0,0 主题 15 IMRE 1 阶 截 尾 ARMA (1,1,0 
主题 3 拖 尾 1 阶 截 尾 ARIMA (1,0,0 主题 16 IMRE IMRE ARMA (1,1,0 
主题 4 拖 尾 IMRE ARIMA (1,1,0 主题 17 SMU 1 阶 截 尾 ARMA (1,1,0 
主题 5 3 阶 截 尾 IMRE ARIMA (1,1,0 主题 18 IMRE 1 阶 截 尾 ARMA (1,0,0 
主题 6 5 阶 截 尾 IMRE ARIMA (1,1,0 主题 19 拖 INRE ARIMA (1,0,0 
主题 7 6 阶 截 尾 1 阶 截 尾 ARIMA (1,0,0 主题 20 拖 尾 IMRE ARIMA (1,0,0 
主题 8 拖 尾 1 阶 截 尾 ARIMA (1,1,0 主题 21 拖 尾 IMRE ARIMA (1,1,0 
主题 9 1 阶 截 尾 1 阶 截 尾 ARIMA (1,0,0 主题 22 IMRE IMRE ARMA (1,1,0 
主题 10 拖 尾 IMRE ARIMA (1,0,0 主题 23 IMRE 1 阶 截 尾 ARMA (1,0,0 
主题 11 拖 尾 IMRE = ARIMA (1,0,0 主题 24 拖 尾 IMRE ARIMA (1,1,0 
主题 12 拖 尾 1 阶 截 尾 ARIMA (1,1,0 主题 25 IMRE 1 阶 截 尾 ARMA (1,1,0 
主题 13 “7 阶 截 尾 ARE ARIMA (1,1,0 主题 26 IME SME ARIMA (1,0,0 


如 图 7 所 示 ， 主题 5 自 相关 图 3 阶 截 尾 ， 图 8) 。 据 此 展开 主题 趋势 拟 合 和 预测 分 析 ， 
偏 自 相关 图 1 阶 截 尾 ， 模 型 参数 p 应 取 0-3 阶 ， 9 左 侧 为 基于 ARIMA 模型 拟 合 的 2000-2018 年 
参数 q 应 取 0-1， 可 能 存在 8 种 可 能 的 组 合 。 通 主题 强度 走势 ， 呈 现 增 长 ; 右 侧 为 Topic5 未 来 
过 信息 准则 比较 ， 确 定 了 模型 的 最 优 形 式 ( 见 5 年 主题 走势 预测 结果 ， 表 现 平稳 。 


Date: 07/23/21 Time: 02:29 
Sample: 2000 2018 
Included observations: 19 


Autocorrelation Partial Correlation AC PAC 


1 
z 
3 
4 
5 
6 
7 
8 
9 


0.748 0.748 
0.606 0.105 
0.564 0.183 
0.428 -0.156 
0.266 -0.168 
0.113 -0.199 
-0.010 -0.096 
-0.148 -0.143 
-0.274 -0.099 
-0.348 -0.041 
-0.387 0.012 
-0.397 0.049 


7 主题 5 建 模 PAC 和 PACF 


Dependent Variable: LNTOPIC2 

Method: Least Squares 

Date: 07/23/21 Time: 03:17 

Sample (adjusted): 2001 2018 

Included observations: 18 after adjustments 


Variable Coefficient Std. Error t-Statistic Prob. 


Cc 0.354134 0.244236 1.449970 0.1664 
LNT OPIC2¢-1) 0.771580 0.175189 4.404265 0.0004 


R-squared 0.547991 Mean dependent var 1.371429 


Adjusted R-squared 0.519741 S.D. dependent var 0.485903 
S.E. of regression 0.336734 Akaike info criterion 0.765394 
Sum squared resid 1.814240 Schwarz criterion 0.864325 
Log likelihood -4.888549 Hannan-Quinn criter. 0.779036 
F-statistic 19.39755 Durbin-Watson stat 2.233050 
Prob(F-statistic) 0.000443 


8 主题 5 模型 信息 准则 及 参 才 
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Forecast: LNTOPICSF 
Actual: LNTOPICS 
Forecast sample: 2000 2023 6] 
Adjusted sample: 2002 2019 
Included observations: 18 5 
Root Mean Squared Error 0.152225 
Mean Absolute Error 0.121710 
Mean Abs. Percent Eror ”17.13907|4 ] 
Theil Inequality Coefficient 0.061069 
Bias Proportion 0.000000) 3 4 
p Variance Proportion 0.021989) 
a if Covariance Proportion 0.978011), | 
Theil U2 Coefficient 0.427963) 
Symmetric MAPE 14.87520 


— 2000-2018 
=— forcast 2019-2023 


E 


00 十 一 一 一 T ep 
2002 2004 2006 2008 2010 2012 2014 2016 2018 


2000 2005 201 0 201 5 2020 


——LNTOPICSF —— 2SE. 


9 主题 5 BF ARIMA 的 趋势 拟 合 预测 


4.3.3 影响 力 和 增长 性 分 析 

时 序 全 局 主 成 分 分 析 利 用 综合 变量 来 取代 原 
有 的 全 局 变量 ， 能 抓 住 主要 影响 特征 所。 通过 计 
算 2001-2018 各 年 度 度量 指标 ， 得 到 260 x 18 的 


时 序数 据 表 ， 共 4 680 条 数据 ， 指 标 间 存 在 相关 
性 ( 见 图 10 ) 。 为 消除 量 纲 的 影响 ,采取 标准 化 
处 理 ， 巴 特 利 球 度 检验 统计 量 为 9 135.283, p 值 
接近 0, KMO 检验 值 大 于 0.7， 适 合 主 成 分 分 析 。 


X1 TI 

X2 TOI 

X3 TAT HIGH 

X4 TIS 

X5 TCG 

X6 TI-G -0.049 

X7 TCI-G -0.089 -0.004 -0.242 -0.241 -0.202 | 0.312 

x8 TAT-G -0.063 -0.078 -0.138 -0.138 -0.131 | 0.394 

X9 TIS-G -0.056 -0.074 -0.117 -0.115 -0.112 

x10 TcG-G -0.057 -0.060 -0.130 -0.123 -0.113 Low 
TI TCI TAT TIS TCG TI-G TCL-G TAT-G TIS-G TCG-G 


10 影响 力 和 增长 性 各 成 分 相关 性 分 析 


计算 全 局 主 成 分 分 析 的 初始 解 及 因子 解 情 
况 ， 依 据 特征 值 大 于 1 的 原则 ， 选 取 主 成 分 Fl 
和 F2， 二 者 分 别 携带 43.375% 和 32.519% 的 原 
始 数 据 信息 。 第 一 主 成 分 中 5 项 影响 力 指 标 均 
为 正 值 且 有 较 大 的 载荷, 构成 影响 力 综合 因子 。 
第 二 主 成 分 更 多 地 反映 了 主题 增长 性 情况 ， 构 
成 增长 性 因子 。 

利用 成 分 得 分 系数 得 到 两 类 主 成 分 的 解析 
表达 式 ， 如 下 所 示 : 
F1=0.130X1+0.146X2+0.191X3+0.191X4+ 
0.193X5-0.087X6-0.130X7-0.138X8-0.139X9- 
0.139X10 公式 (9 ) 


F2=0.124X1+0.146X2+0.152X3+0.153X4+0.162X54 
0.159X6+0.157X7+0.214X8+0.227X9+0.226X10 
公式 (10) 

根据 累计 贡献 度 归 一 化 处 理 ， 计 算 综 合 
评价 指标 权重 ， 可 以 进一步 得 到 新 兴 主 题 影 
响 力 和 增长 性 综合 评价 的 表达 式 ， 如 下 所 
示 : 
F=0.1272X1+0.1461X2+0.1744X3+0.1744X4+ 
0.1795X5+0.0186X6-0.0069X7+0.0127X8+0.0177X9+ 
0.0171X10 公式 (11) 

为 了 更 好 地 解释 主 成 分 的 现实 意义 ， 可 以 
通过 数据 标准 化 和 各 主 成 分 得 分 计算 观察 主题 
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二 维 分 布 情况 ， 如 图 11 所 示 。 主 题 7、13、 
16, 23, 24, 25 和 26 等 呈现 出 高 增长 与 高 影 
响 的 协同 发 展 效应 ， 表 现 高 增长 新 兴 主 题 可 以 


取得 更 多 的 科学 影响 力 ; 主题 1、2、4、5、6、 


主题 2 
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10、11、12、14、18、19 和 21 等 ， 其 增长 性 
和 影响 力 呈 现 出 一 定 的 替代 效应 ; 主题 3、8 、9、 
12 和 15 等 分 布 接近 原点 ， 影 响 力 和 增长 性 特 
征 发 展 较为 稳定 。 


主题 3 
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注 : 横 轴 为 影响 力 维度 ， 纵 轴 为 增长 性 维度 


11 湿地 领域 主题 增长 性 及 影响 力 因子 动态 分 布 


4.3.4 新 兴 主 题 识别 结 

综合 湿地 领域 主题 各 维度 的 特征 ， 可 以 发 
现 : 中 通过 主题 模型 计算 得 到 的 26 个 主题 均 满 
足 一 致 连贯 性 特征 的 要 求 。@ 洪 在 高 成 长 性 分 
析 结 果 显 示 ， 在 2000-2018 年 里 ， 主 题 强度 大 
部 分 呈现 平稳 或 上 升 的 态势 ; 在 未 来 5 年 中 ， 
主题 5、6、7、9、13、14、15、16、17、18、 
22、23、25 和 26 拥 有 显著 的 潜在 高 成 长 力 ， 
预计 发 展 态势 向 好 。 包 新颖 度 方面 表现 良好 的 
主题 包括 主题 2、7、9、11、12、13、15、16、 
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17、23 和 25。(@ 联 合 分 析 增 长 性 和 影响 力 ， 主 
题 3、7、13、16、17、23、24、25 和 26 拥 有 
具有 较 好 的 特征 表现 。 

新 兴 主 题 多 维 识别 结果 如 图 12 所 示 ， 结 
果 表 明 ， 在 湿地 领域 符合 新 兴 主 题 定义 的 主题 
为 主题 7、13、15、16、17 和 25， 即 退化 湿地 
系统 恢复 、 湿 地 微生物 基因 研究 、 湿 地 物质 平 
衡 /湿地 生态 补偿 、 湿 地 定量 勘查 研究 、 湿 地 
菌 群 系统 治理 分 析 和 湿地 生态 对 气候 变化 响应 
分 析 。 
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12 新 兴 主 题 特征 维度 分 析 


合 新 兴 主 题 特征 关联 分 析 

新 兴 主 题 具 有 发 展 成 为 未 来 热点 主题 的 趋 
势 叫 ， 是 前 沿 主题 孵化 的 基 床 外。 在 新 兴 主 题 
识别 的 基础 上 ， 深 度 挖 气 新 兴 主 题 关 联 特征 的 
长 期 关系 ， 可 以 更 好 地 认识 新 兴 主 题 ， 具 有 一 
定 的 现实 意义 。 

本 文 立足 于 科学 评价 体系 ， 选 取 能 反映 研 
究 强度 、 研 究 绩 效 、 研 究 机 构 多 样 化 程度 和 成 
果 传播 能 力 的 主要 计量 指标 ,针对 新 兴 主 题 组 
成 的 面板 数据 ， 进 行 主题 特征 ( 包括 引文 特征 、 


作者 特征 、 机 构 规模 以 及 学 科 丰 富 性 等 ) 关联 
分 析 。 为 规避 可 能 存在 的 异 方差 情况 ， 对 数据 
进行 对 数 化 处 理 后 ,完成 LLC 平 稳 性 检验 , 其 中 ， 
主题 多 学 科 特 征 存在 单位 根 过 程 ， 即 一 阶 单 整 ， 
其 余 变 量 均 为 零 阶 单 整 。 
5.1 长 期 均衡 分 析 : 协 整 分 析 

由 于 采用 的 数据 并 非 同 阶 单 整 ， 需 要 经 协 
整 检 验 确 定 长 期 稳定 关系 。 在 Kao-test 协 整 检 
验 中 ， 原 假设 为 主题 强度 与 主题 特征 数据 不 存 
在 协 整 关系 。 根 据 DF 和 调整 的 ADF 等 5 个 
检验 统计 量 的 显著 性 比较 ， 结 论 均 为 拒绝 原 假 
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设 ( 见 表 4) ， 即 存在 协 整 关系 ， 主 题 强 度 序 系 ， 可 以 对 观测 变量 进行 进一步 的 因果 关系 分 


列 与 主题 各 维度 外 部 特征 之 间 存 在 长 期 稳定 关 ” 析 诊 断 。 


表 4 Kao-test 协 整 检 验 


Kao test for cointegration 


Ho:No cointegration Number of panels= 6 
Ha:All panels are cointegrated Number of periods= 19 
Cointegrating vector: Same 
Panel means: Included Kernel: Bartlett 
Time trend: Not included Lags: 1.83(Newey-West) 
AR parameter: Same Augmented lags: 
Statistic p-value 
Modified Dickey-Fuller t -3.610 2 0.000 2 
Dickey-Fuller t -5.250 7 0.000 0 
Augmented Dickey-Fuller t -7.705 2 0.000 0 
Unadjusted modified Dickey-Fuller t -5.700 6 0.000 0 
Unadjusted Dickey-Fuller t -5.822 1 0.000 0 


根据 协 整 方程 可 得 : 主题 机 构 的 增长 、 主 丰富 性 的 增加 与 主题 强度 在 长 期 呈现 负 向 的 均 


题 作者 数量 的 增长 和 主题 被 引 频 次 的 增加 , 与” 衡 关 系 ， 如 表 5 所 示 : 
主题 强度 在 长 呈现 正 向 的 均衡 关系 ; 主题 学 科 
表 5 协 整 方程 


Cointegrating Equation(s): Log likelihood 964.444 2 
Normalized cointegrating coefficients (standard error in parentheses) 
LNTI LNTCI LNTCG LNTAT LNTIS 
1.000 000 234.143 1 -920.788 2 469.822 8 227.383 8 
(32.655 9) (129.873) (208.967) (276.913) 
Adjustment coefficients (standard error in parentheses) 
D(LNTI) 0.001 462 
(0.000 23) 
D(LNTCI) 0.006 427 
(0.000 69) 
D(LNTCG) 0.001 084 
(0.000 24) 
D(LNTAT) 0.001 080 
(0.000 23) 
D(LNTIS) 0.001 183 


(0.000 24) 
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5.2 格 兰 杰 因 果 关 系 检验 

格 兰 杰 因果 检验 是 一 种 预测 能 力 的 检 
验 ， 其 基本 原理 为 : 假设 变量 甲 和 乙 间 存在 
互相 影响 ， 如 果 甲 的 沾 后 期 变量 对 乙 有 显著 影 
W, DRAKE AIR, ZI MY 
确认 主题 强度 与 各 维度 特征 之 间 存 在 协 整 关 
系 后 ， 由 于 作用 方向 不 明 ， 笔者 首先 利用 
Pvar 模型 确定 最 优 渍 后 阶 数 为 3， 接 着 采用 
A. Juodis 等 中 提出 的 格 兰 杰 因果 检验 方法 
对 变量 的 外 生性 进行 检验 ， 确 定 主题 各 维度 
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特征 对 主题 强度 是 否 拥 有 解释 能 力 ， 若 无 则 
需 调整 。 

原 假 设 为 被 解释 变量 主题 联合 维度 特征 对 
主题 强度 无 显著 性 影响 , 检验 结果 见 表 6, 机构、 
作者 、 引 用 和 学 科 丰 定性 对 主题 强度 的 三 阶 沛 
后 项 对 主题 强度 的 影响 显著 性 水 平 有 所 差异 ， 
但 其 联合 作用 的 临界 值 小 于 0.05， 说 明 4 个 变 
量 的 联合 变化 是 主题 强度 变化 的 内 生 因 素 。 为 
研究 变量 之 间 具 体 的 因果 关系 ， 笔 者 进行 进 一 
步 的 格 兰 杰 因果 检验 ,结果 见 表 7。 


表 6 格 兰 杰 外 生性 检验 


Juodis, Karavias and Sarafidis(2021) Granger non-causality test results: 


Number of units= 6 T= 18 

Number of lags = 3 BIC= 342.544 2 

HPJ Wald test: 76 510.84 pvalue_HPJ: 0.000 0 

HO: Selected covariates do not Granger-cause ti. 

H1: HO is violated. 

Results for the Half-Panel Jackknife estimator 
Coef. Std.Err. Z P>|z| [95% Conf. Interval] 

tci 
Ll. -0.032 670 0.003 953 -8.27 0.000 -0.040 420 -0.024 930 
L2. -0.026 340 0.003 456 -7.62 0.000 -0.033 110 -0.019 570 
L3: -0.146 610 0.003 222 -45.50 0.000 -0.152 920 -0.140 290 
tis 
L1. 2.650 179 0.125 868 21.06 0.000 2.403 481 2.896 877 
E2; -6.499 070 0.142 101 -45.74 0.000 -6.777 580 -6.220 550 
E3: 15.612 260 0.168 684 92.55 0.000 15.281 640 15.942 870 
tat 
Li. -2.534 910 0.058 553 -43.29 0.000 -2.649 670 -2.420 150 
L2. 1.831 435 0.063 434 28.87 0.000 1.707 107 1.955 762 
L3. -5.879 390 0.071 325 -82.43 0.000 -6.019 180 -5.739 590 
teg 
Ll. 3.946 251 0.092 628 42.60 0.000 3.764 703 4.127 798 
L2. 3.033 879 0.073 701 41.16 0.000 2.889 429 3.178 330 
L3. -4.039 500 0.066 424 -60.81 0.000 -4.169 690 -3.909 310 
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表 7 Granger 因果 关系 检验 结果 

零 假设 观测 量 F 统计 量 P 值 结论 
INTI 不 是 LITIS 的 Granger 原因 114 3.340 00 0.0703 拒绝 
INTI 不 是 LITCI 的 Granger 原因 114 3.488 47 0.0639 拒绝 
INTI 不 是 LITAT 的 Granger 原因 114 2.975 39 0.089 2 拒绝 
INTI 不 是 LITCG 的 Granger 原因 114 1.018 18 0.390 4 接受 
INTIS 不 是 LITI 的 Granger 原因 114 8.040 20 0.006 1 拒绝 
INTCI 不 是 LITI 的 Granger 原因 114 2.576 47 0.117 2 接受 
INTAT 不 是 LITI 的 Granger 原因 114 3.765 67 0.053 8 拒绝 
INTCG 不 是 LITI 的 Granger 原因 114 3.090 81 0.082 7 拒绝 


分 析 表 7Granger 因果 关系 检验 结果 ， 可 得 
出 如 下 结论 : 

(1 ) 对 于 湿地 领域 的 新 兴 主 题 而 言 ， 主 题 
强度 和 主题 机 构 数 量 、 主 题 作者 数量 之 间 存 在 
双 癌 的 格 兰 杰 因果 关系 。 这 说 明 ， 领 域内 研究 
学 者 的 增长 促进 了 领域 新 兴 主 题 的 发 展 ， 主 题 
强度 的 增长 也 吸引 了 新 的 一 批 学 者 展开 相关 的 
研究 ， 结 果 验 证 了 集群 效应 ， 说 明 人 才 发 展 与 
主题 发 展 属于 相辅相成 的 主动 模式 。 这 从 侧面 
反映 出 湿地 领域 相关 研究 支持 机 构 制 定 研 究 激 
励 政策 的 有 效 性 ， 在 未 来 发 展 学 科 主 题 时 应 考 
虚 项 目 为 先 、 人 才 为 本 的 执行 思路 。 

(2 ) 在 湿地 领域 中 ， 主 题 强度 和 主题 学 科 
丰富 性 数量 、 主 题 引 用 间 存 在 单 向 的 因果 关系 ， 
即 主题 强度 的 恨 好 发 展 是 主题 学 科 丰 富 性 的 原 
因 ， 但 学 科 丰 富 性 不 是 主题 强度 良好 发 展 的 原 


主题 关注 度 的 转移 ， 主 题 强 度 增长 对 于 引用 的 
拉动 作用 在 短期 内 因果 关系 不 显著 ， 反 观 主题 
引用 频次 对 主题 强度 发 展 的 影响 ， 可 以 发 现 ， 
引用 频次 增加 对 主题 强度 发 展 的 促进 效果 显著 ， 
是 该 领域 主题 强度 发 展 的 “风向 标 ”。 
Orie 

从 论文 数据 中 ， 笔 者 提出 了 一 套 基 于 新 兴 
主题 特征 的 识别 与 关联 分 析 方 法 。 在 特征 提取 
方面 ， 结 合 新 兴 主 题 相 关 理 论 与 实践 ， 在 新 颗 
性 等 方面 做 出 了 改良 , 加 入 潜在 高 成 长 性 指标 ， 
并 针对 影响 力 和 增长 性 选取 了 较为 全 面 的 特征 
考量 方案 。 本 人 研究 通过 主题 模型 提取 人 研究 主题 
与 主题 分 布 ， 采 用 趋势 预测 模型 与 分 析 方 法 分 
析 主 题 未 来 趋势 ， 结 合 全 局 主 成 成 分 析 刻 画 主 


因 ; 主题 强度 增长 是 主题 引用 频次 增加 的 原因 ， 
而 主题 引用 频次 增加 是 主题 强度 变化 的 原因 。 
其 现实 含义 为 ， 主 题 强度 对 主题 丰富 性 有 着 单 
方面 作用 , 主题 强度 随 着 时 间 发 展 而 不 断 扩张 ， 
促进 了 湿地 领域 学 科 的 多 元 化 发 展 ; 然而 ， 湿 
地 领域 学 科 丰 富 性 的 发 展 并 没有 明显 优化 主题 
强度 的 增长 ， 这 说 明 ， 通 过 促进 学 科 丰 富 性 的 
增加 并 不 能 够 直接 地 促进 该 领域 主题 强度 的 良 
性 发 展 ， 在 湿地 领域 内 盲目 追求 学 科 丰 定性 ， 
可 能 导致 主题 分 散 化 较为 严重 ， 难 以 做 到 “大 
而 精 ”。 此 外 ， 引 用 情况 在 一 定 程度 上 代表 着 
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题 增长 性 和 影响 力 动态 发 展 路 径 ， 根 据 主题 综 
合 表 现 情况 完成 新 兴 主 题 的 识别 。 为 更 好 地 识 
别 新 兴 主 题 ， 笔 者 利用 协 整 分 析 和 格 兰 杰 因果 
检验 , 针对 新 兴 主 题 的 特征 关联 关系 进行 挖掘， 
研究 发 现 ， 主 题 强 度 与 机 构 数 量 、 作 者 规模 间 
存在 双向 的 关联 效应 ， 主 题 引 用 频次 对 主题 发 
展 存 在 正 向 的 影响 ， 主 题 强度 对 主题 多 样 性 产 
生 单 向 的 促进 作用 ， 由 此 ， 笔 者 提出 应 坚持 项 
目 为 先 、 人 才 为 本 的 创新 政策 执行 思路 ， 以 及 
关于 如 何 发 展 新 兴 主 题 的 一 些 思考 。 笔 者 在 特 
征 科学 性 和 识别 全 面 性 上 进行 了 反复 考量 ， 综 
合 选用 自然 语言 处 理 、 多 元 统计 分 析 和 时 间 序 
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列 分 析 方 法 ， 确 定 了 新 兴 主 题 识 别 与 特征 分 析 
方法 ， 该 方法 对 于 客观 认识 领域 内 研究 主题 动 
态 、 展 开 科 人 研 布局 决策 等 具有 一 定 的 参考 价值 。 

笔者 提出 的 新 兴 主 题 识别 分 析 方 法 主要 从 
科学 文献 角度 展开 ， 由 于 新 兴 主 题 是 一 个 领域 
内 研究 内 容 的 全 面 特征 ， 其 研究 价值 体现 在 科 
技 、 政 策 和 经 济 等 各 个 方面 ， 而 文献 只 是 反映 
研究 主题 创新 变化 的 一 个 重要 对 象 ， 除 科学 文 
献 外 , 还 包括 政策 文本 和 专利 数据 等 研究 对 象 。 
因此 ， 未 来 研究 可 以 尝试 将 多 源 文本 融合 进行 
综合 的 新 兴 主 题 识别 研究 。 
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Abstract: [Purpose/Significance] Carrying out research on emerging research topics(ERT) 
identification and scientifically and effectively discovering their characteristic correlation laws can better 
serve practical needs and give play to the innovative supporting role of sci-tech information research on 
the development of disciplines. Aiming at discovering emerging research topic(ERT) and its characteristic 
correlation effect scientifically and effectively, this paper carries out ERT identification and feature analysis, 
while realizing the innovative supporting role of sci-tech information work. [Method/Process] Starting 
from the definition of the features of ERT, this paper established the methodological framework of ERT 
identification by using natural language processing, global principal component analysis and time series 
analysis. Based on the relevant theories and practices of emerging topic identification and scientific impact 
assessment, this thesis quantified the characteristics of the topic’s consistency, novelty, influence, and 
growth. On the basis of emerging themes identification, the law of the development of emerging themes in 
the target field is deeply excavated. Granger causality test and cointegration analysis were used to explore 
the long term equilibrium and the correlation effects of their characteristics. [Result/Conclusion] This paper 
proposes a method to identify ERT and their correlation feature analysis. In order to verify the effectiveness 
and feasibility of this method, the field of wetland was selected to carry out empirical research. Combined 
with the topic identification and feature correlation effect analysis, the final result depicted the dynamic 
development path of subject science influence in this field, while putting forward some advices on developing 
emerging topics from the perspective of associated characteristics. 
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